隨著云計(jì)算的興起,數(shù)據(jù)中心不僅繼續(xù)生存,而且在新的化身中與混合和多云系統(tǒng)一起蓬勃發(fā)展,例如本地即服務(wù)。不僅如此,數(shù)據(jù)中心還準(zhǔn)備滿足對(duì)與邊緣計(jì)算、物聯(lián)網(wǎng)和 5G 等新興技術(shù)相關(guān)的服務(wù)的新興需求。由于終端用戶計(jì)算 (EUC) 和移動(dòng)解決方案中的這些新應(yīng)用和新興需求,數(shù)據(jù)中心變得越來(lái)越復(fù)雜,導(dǎo)致更多內(nèi)部和外部風(fēng)險(xiǎn)。停機(jī)是一種持續(xù)存在的風(fēng)險(xiǎn),單個(gè)事件的最高損失為每分鐘 11,000 美元。
?
以下是企業(yè)可以采取哪些措施來(lái)識(shí)別和降低數(shù)據(jù)中心運(yùn)營(yíng)中的風(fēng)險(xiǎn)。
1. 采用綜合的風(fēng)險(xiǎn)管理方法
2021 年 2 月德克薩斯州創(chuàng)紀(jì)錄的冬季風(fēng)暴和隨后的停電被證明是對(duì)該州數(shù)據(jù)中心的現(xiàn)實(shí)檢驗(yàn)。雖然沒(méi)有出現(xiàn)大規(guī)模故障,但電氣故障轉(zhuǎn)移系統(tǒng)存在重大問(wèn)題。
從功能的角度來(lái)看,數(shù)據(jù)中心是運(yùn)行關(guān)鍵業(yè)務(wù)應(yīng)用程序的物理設(shè)施,而從業(yè)務(wù)的角度來(lái)看,它們是需要預(yù)算和管理的不動(dòng)產(chǎn)或資本資產(chǎn)。
關(guān)鍵是,單點(diǎn)故障可能(并且經(jīng)常會(huì))對(duì)運(yùn)營(yíng)造成巨大中斷,從而導(dǎo)致收入損失。這就是為什么您需要一個(gè)適用于整個(gè)組織的普遍風(fēng)險(xiǎn)管理計(jì)劃和政策。
這就是集成風(fēng)險(xiǎn)管理 (IRM) 的用武之地。 Gartner 將 IRM 定義為“由風(fēng)險(xiǎn)意識(shí)文化和支持技術(shù)支持的一組實(shí)踐和流程,這些技術(shù)通過(guò)對(duì)組織如何管理其管理的綜合視圖來(lái)改進(jìn)決策和績(jī)效。一組獨(dú)特的風(fēng)險(xiǎn)?!?/p>
在大流行后的世界中,實(shí)施遠(yuǎn)程工作、BYOD、CYOD 和其他工作場(chǎng)所實(shí)踐變化的企業(yè)正在將其數(shù)字化轉(zhuǎn)型戰(zhàn)略與 IT 基礎(chǔ)設(shè)施升級(jí)相結(jié)合,以識(shí)別、容忍和減輕自然災(zāi)害、供應(yīng)鏈、數(shù)據(jù)處理引起的風(fēng)險(xiǎn),以及那些固有的商業(yè)模式。
如果您正處于數(shù)字化轉(zhuǎn)型的中間,您需要監(jiān)控可能影響您的數(shù)據(jù)中心的每個(gè)流程和因素(外部或內(nèi)部),并準(zhǔn)備好應(yīng)對(duì)由單個(gè)或多個(gè)同時(shí)發(fā)生的事件引起的多種風(fēng)險(xiǎn)。
數(shù)字化轉(zhuǎn)型不僅適用于嚴(yán)重依賴數(shù)據(jù)或技術(shù)的企業(yè)或組織——它同樣適用于大流行后工作場(chǎng)所中的中小型企業(yè),包括那些開始使用公共云作為數(shù)據(jù)中心替代品的中小型企業(yè)。
甚至聯(lián)邦政府也在認(rèn)真對(duì)待數(shù)字化轉(zhuǎn)型——改造數(shù)據(jù)中心基礎(chǔ)設(shè)施以利用云技術(shù)是他們的兩個(gè)核心目標(biāo)之一(改善在線用戶體驗(yàn)是另一個(gè)目標(biāo))。
“數(shù)據(jù)中心優(yōu)化是聯(lián)邦信息技術(shù)收購(gòu)改革法案中記分卡的關(guān)鍵衡量標(biāo)準(zhǔn)。這種衡量在一定程度上反映了機(jī)構(gòu)基礎(chǔ)設(shè)施利用云的程度,”數(shù)字轉(zhuǎn)型專家杰夫舒帕克說(shuō),他在通過(guò)精益敏捷實(shí)施降低全球資本計(jì)劃的風(fēng)險(xiǎn)方面擁有 15 年的實(shí)踐經(jīng)驗(yàn)。
組織正在意識(shí)到敏捷方法、大數(shù)據(jù)分析、移動(dòng)解決方案和 DevOps 與可靠和升級(jí)的數(shù)據(jù)中心協(xié)同工作,以實(shí)現(xiàn)高效的風(fēng)險(xiǎn)預(yù)防、充分的風(fēng)險(xiǎn)響應(yīng)和快速的災(zāi)難恢復(fù)。因此,他們轉(zhuǎn)向框架,使這些最佳實(shí)踐能夠在混合 IT 基礎(chǔ)設(shè)施中實(shí)施,以確保業(yè)務(wù)連續(xù)性、降低運(yùn)營(yíng)成本并改善數(shù)字客戶體驗(yàn)。
2. 了解您的風(fēng)險(xiǎn)
無(wú)論您的風(fēng)險(xiǎn)管理計(jì)劃多么全面,它的發(fā)展速度都不會(huì)超過(guò)技術(shù)。新技術(shù)和新的工作實(shí)踐比以往任何時(shí)候都更加復(fù)雜。讓我們快速了解一下數(shù)據(jù)中心面臨的不同類型的風(fēng)險(xiǎn)。
IT 安全性不足
網(wǎng)絡(luò)安全漏洞可以說(shuō)是當(dāng)今數(shù)據(jù)中心面臨的最大風(fēng)險(xiǎn),范圍從 DoS 攻擊到社會(huì)工程再到數(shù)據(jù)盜竊。2021 年數(shù)據(jù)泄露的平均成本為 424 萬(wàn)美元,為 17 年來(lái)最高。應(yīng)用程序和系統(tǒng)故障也會(huì)對(duì)物理安全方面產(chǎn)生影響,導(dǎo)致無(wú)法驗(yàn)證 ID 卡、CCTV 連接丟失或授權(quán)人員被拒絕進(jìn)入某些區(qū)域的情況。
系統(tǒng)錯(cuò)誤
如果沒(méi)有彈性架構(gòu)和連續(xù)、冗余和高帶寬的連接,數(shù)據(jù)中心就注定失敗。服務(wù)器、網(wǎng)絡(luò)設(shè)備和相關(guān)設(shè)備都需要集群、鏡像和復(fù)制等功能,以減少停機(jī)的機(jī)會(huì)。有時(shí),應(yīng)用程序或軟件(例如管理程序)會(huì)啟動(dòng)并關(guān)閉整個(gè)服務(wù)器或網(wǎng)絡(luò)。您需要確保所有應(yīng)用程序在混合基礎(chǔ)架構(gòu)中無(wú)縫運(yùn)行,并與云原生應(yīng)用程序通信。
電源(檢測(cè))失敗
盡管極為罕見(jiàn),但斷電可能并且確實(shí)發(fā)生——主要是自然災(zāi)害的后果。您需要為數(shù)據(jù)中心的所有機(jī)架和冷卻系統(tǒng)提供 UPS 或發(fā)電機(jī)支持的電源路徑。直接連接到多變電站電網(wǎng)有助于對(duì)沖本地變電站的停電。
漏水
洪水或滲水可能會(huì)給數(shù)據(jù)中心設(shè)備帶來(lái)厄運(yùn)。然而,維護(hù)良好的水路和排水系統(tǒng)對(duì)于消防和冷卻系統(tǒng)至關(guān)重要。
高分貝噪音
數(shù)據(jù)中心的一個(gè)鮮為人知但顯著的風(fēng)險(xiǎn)是長(zhǎng)時(shí)間暴露在響亮的高頻聲音振動(dòng)中,這會(huì)降低存儲(chǔ)系統(tǒng)的效率,降低讀/寫性能,并最終影響數(shù)據(jù)完整性。數(shù)據(jù)中心應(yīng)遠(yuǎn)離競(jìng)技場(chǎng)、消防站、機(jī)場(chǎng)等,并安裝在使用聲學(xué)抑制技術(shù)的建筑物內(nèi)。
火
電力峰值和短路是數(shù)據(jù)中心火災(zāi)的常見(jiàn)原因。如果不迅速控制,火災(zāi)可能會(huì)在幾分鐘內(nèi)燒毀價(jià)值數(shù)千美元的硬件。具有諷刺意味的是,空調(diào)和冷卻系統(tǒng)會(huì)驅(qū)散煙霧,使早期發(fā)現(xiàn)火災(zāi)變得更加困難。使用帶有光電傳感器的煙霧探測(cè)系統(tǒng)來(lái)持續(xù)監(jiān)測(cè)數(shù)據(jù)中心內(nèi)的空氣是否有煙霧跡象。
災(zāi)難恢復(fù)規(guī)劃不完善
雖然如今數(shù)據(jù)備份是一個(gè)非常簡(jiǎn)單的過(guò)程,但出于安全和性能方面的考慮,數(shù)據(jù)中心比公共云更受歡迎——您希望在系統(tǒng)出現(xiàn)故障時(shí)立即恢復(fù)交易數(shù)據(jù)。當(dāng)然,這取決于業(yè)務(wù)性質(zhì)和其所屬的監(jiān)管框架等因素。更有理由為每個(gè)不同的故障事件制定明確的恢復(fù)計(jì)劃;計(jì)算、存儲(chǔ)或網(wǎng)絡(luò)資源也是如此。最先發(fā)制人的災(zāi)難恢復(fù)計(jì)劃都有監(jiān)控系統(tǒng),可以跟蹤影響數(shù)據(jù)中心的風(fēng)險(xiǎn)因素,并在超過(guò)關(guān)鍵閾值時(shí)發(fā)出警報(bào)。
3. 在管理之前評(píng)估風(fēng)險(xiǎn)
所有風(fēng)險(xiǎn)(如企業(yè))并非生來(lái)平等。雖然數(shù)據(jù)中心面臨著自己獨(dú)特的風(fēng)險(xiǎn),尤其是對(duì)于不同的垂直行業(yè),但您最終使用的風(fēng)險(xiǎn)緩解技術(shù)不一定適合數(shù)據(jù)中心環(huán)境。因此,您需要一個(gè)風(fēng)險(xiǎn)管理計(jì)劃,列出您的數(shù)據(jù)中心面臨的所有可以想象的風(fēng)險(xiǎn),并指定對(duì)每種類型事件的響應(yīng)。在它發(fā)生之前。
首先進(jìn)行風(fēng)險(xiǎn)審計(jì)——對(duì)您擁有和運(yùn)營(yíng)的所有設(shè)施進(jìn)行全面評(píng)估。評(píng)估影響設(shè)施設(shè)計(jì)、IT 基礎(chǔ)設(shè)施和運(yùn)營(yíng)流程的因素。
如果過(guò)去發(fā)生過(guò)重大事件或中斷,請(qǐng)進(jìn)行根本原因分析(如果仍有可能)以解決您未涵蓋的任何差距。您可以做些什么來(lái)確保類似情況下不會(huì)再次出現(xiàn)停機(jī)?
此外,如果您運(yùn)行具有多個(gè)數(shù)據(jù)中心和云系統(tǒng)的混合架構(gòu),請(qǐng)單獨(dú)審核每個(gè)中心以及它們之間的數(shù)據(jù)路徑和連接。如果您在金融和醫(yī)療保健等監(jiān)管嚴(yán)格的行業(yè)運(yùn)營(yíng),您需要將定期數(shù)據(jù)中心風(fēng)險(xiǎn)評(píng)估和災(zāi)難測(cè)試作為日常運(yùn)營(yíng)的一部分。與其他所有事情一樣,創(chuàng)建框架、政策或備忘單(至少)可以提供適用于您的風(fēng)險(xiǎn)類別、每個(gè)類別影響的系統(tǒng)、估計(jì)的損壞和恢復(fù)成本以及發(fā)生事故或?yàn)?zāi)難時(shí)應(yīng)遵循的協(xié)議。
例如,IT 咨詢公司 Capgemini 采用不斷發(fā)展的風(fēng)險(xiǎn)管理方法,識(shí)別和量化風(fēng)險(xiǎn)及其緩解成本。“我們已經(jīng)建立了一個(gè)月度風(fēng)險(xiǎn)管理系統(tǒng),記錄所有風(fēng)險(xiǎn)和問(wèn)題以及遏制和行動(dòng)計(jì)劃。如果需要更改,可以提供投資預(yù)算,”凱捷高級(jí)交付中心經(jīng)理Kevin Read 說(shuō)。
減少停機(jī)時(shí)間
數(shù)據(jù)中心——甚至公司的整個(gè) IT 基礎(chǔ)設(shè)施——永遠(yuǎn)不會(huì)孤立運(yùn)行。有無(wú)數(shù)的組件和因素可以使數(shù)據(jù)中心全天候運(yùn)行。IT 基礎(chǔ)設(shè)施的風(fēng)險(xiǎn)緩解是一項(xiàng)共同的責(zé)任,而不僅僅是 CIO 或 CTO。您需要有足夠數(shù)量的受過(guò)培訓(xùn)的 IT 員工,他們?cè)敢獗M一切努力掌控?cái)?shù)據(jù)中心運(yùn)營(yíng)。將向您提供Tenable 產(chǎn)品營(yíng)銷副總裁Gavin Millard的一條建議:“相互沖突的目標(biāo)可能很難解決,但最有效的方法之一是擁有一個(gè)高效的流程來(lái)持續(xù)識(shí)別風(fēng)險(xiǎn)所在。您還需要一種可預(yù)測(cè)、可靠的方法來(lái)更新系統(tǒng),而不會(huì)影響組織的總體業(yè)務(wù)目標(biāo)。”